查看原文
其他

想快速学习数据科学?技巧经验都在这儿!

Peter Mei 大数据应用 2022-10-18

今日份知识你摄入了么?

我想分享这篇文章,是因为我收到了很多关于如何学习数据科学的问题,我理解其中的困难。

数据科学的学习,一开始真的很累,尤其是当你发现你必须学习编程、统计学、数学等知识的时候。要学的东西似乎无穷无尽,但是请相信我,它其实并没有你想象的那么糟糕。

图片:Marc-Olivier Jodoin 发布于Unsplash


我有两个目标:


  • 1. 我想通过提供一些指导和技巧,来让你的学习之旅更加顺畅

  • 2. 我想与你分享我的一些帮助我快速学习的技巧


图片由作者提供


那让我们开始把!


1) 你学到的东西会由两个变量决定……


首先你应该知道,“学习”是指知识和技能的获得。因此,当我说“学习”时,我指的是学习理论(知识)和学习如何应用该知识(技能)


这不是火箭那类的科学,但有两个主要因素会影响你在给定时间段内的学习量:


  • 投入的时间:如果你每天花 2 小时而不是每天 1 小时来学习数据科学,那么你可以过滤两倍的材料,或者两倍的时间应用你的技能(即编程)

  • 储存量:学习技能是一回事,但储存知识是另一回事。你可能听说过遗忘曲线。简而言之,你需要在学习数据科学和练习所学知识时,保持同一进度。


就我个人而言,我认为我做出的最佳决定之一,是在 52 周的时间内,每周进行一次学习,并同时撰写与数据科学相关的内容,这样可以迫使我投入大量时间,并保持两个进度的一致。


2) 从基础开始


如果你已经读过我之前的文章,那么在这一点你可能早就听腻了,但是从基础开始真的会大有帮助。你可能觉得这是一条很慢的路线,但这会让你在将来,能够学习建立在这些基础之上的更复杂的概念。


我建议你入手学习的基础知识是:


  • 统计学和概率:数据科学和机器学习本质上是统计学的现代版本。可以通过先学习统计学,这样在以后学习机器学习概念和算法时,你会更轻松。

  • 微积分和线性代数:和统计学一样,许多数据科学概念都建立在基本的数学概念之上。为了理解成本函数,你需要了解微积分。为了理解假设检验,你需要理解集成。再举一个例子,线性代数对于学习深度学习概念、推荐系统和主要的成分分析至关重要。

  • 编程(Python、SQL)SQL 可以说是任何类型的数据职业中最重要的技能,无论你是数据科学家、数据工程师、数据分析师还是业务分析师等,都是如此。至于 Python,它可以说是数据科学家使用的主要脚本语言(我个人并不了解 R 语言)


你并不必了解上述主题的所有内容,但在深入研究机器学习和深度学习之前,你绝对应该了解那些基础知识。 这就引出了我的下一个观点……


3) 不要试图记住一切


理解你学到的东西是一回事,但试图记住所有东西是另一回事。特别是当涉及到 SQL、Python 和 Pandas 时,不要觉得你必须学习它们提供的每一个函数和方法。相反,可以选择专注于学习怎样在遇到编程问题时 Google到 正确的答案。


我曾和数据科学界的资深人士交谈过,但我从来没有遇到一个能记住所有 SQL 和 Python 函数的人。记住所有的函数,是对时间的低效利用,我们可以把时间更好地用于其他事情,例如创建项目!


4) 通过“做”来学习


正如我之前提到的,仅仅通过学习是不够的,你还需要通过实践来学习和保留更多的知识和技能。这和在学校学习新概念后做作业的方式类似,你需要不断将所学应用于实践。


你不用非要完成复杂的项目。即使是对数据集进行探索性数据分析这样简单的事情,也能帮助你加快学习速度。


以下是一些帮助你快速入门的想法:


想法 1:SQL 案例研究


案例的网站


此案例的目的是找到Yammer 这个社交网络的用户参与度下降的原因。在深入研究数据之前,你应该阅读此处 Yammer 功能的概述。你应该使用 4 个表。


上述案例的链接将为你提供有关问题、数据和回答的问题所需要的更多详细信息。 


想法 2:Trustpilot 网络爬虫


其实,学习如何抓取数据是很容易学习并且非常有用的,尤其是在收集个人项目数据时。抓取像 Trustpilot 这样的客户评论网站,对公司价值很高,因为这类网站可以让公司了解评论趋势(变得更好或更糟)并通过 NLP 查看客户在说什么。


首先,要熟悉 Trustpilot 的组织方式,并决定要分析的业务类型。然后再去学习如何抓取 Trustpilot 评论的教程。


想法3:泰坦尼克号机器学习大赛


在我看来,能表明你已准备好从事数据科学工作的方式,就是通过比赛来展示你的编程能力。Kaggle 举办了各种竞赛,涉及构建模型以优化某个指标,其中之一是泰坦尼克号机器学习竞赛。


谢谢你的阅读。


我希望以上的分享对你有所帮助!在以上的分享中,最重要的是你保持你学习与实践的一致——我认为这优先于你的学习方法和你用来学习的资源。确保你可以并将其他一切因素控制在你可以调控的范围内。


提前预祝你在你的学习努力中取得最好的成绩!

原文作者:Terence Shin

翻译作者:Peter Mei

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/four-tips-to-learn-data-science-fast-4ab7177a39e2

本周公开课预告


往期精彩回顾


详解netflix推荐系统

数据岗位大合集|DS、DA、BA和DE的区别及求职面试重点

Data in HR Management:商科社科人文科数据分析求职新方向--人力资源管理

独立完成数据科学项目的五个步骤

推荐系统,比你更懂你





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存